Na podstawie przeprowadzonej analizy można stwierdzić, że ceny złota są powiązane z różnymi w wskaźnikami ekonomicznymi w krajach wysoko rozwiniętych (w wypadku tej analizy - krajach Unii Europejskiej w latach 2013-2019). Utworzony model regresji wykazał, że najistotniejszy wpływ na predykcję cen złota miała inflacja.
Zbiór danych składa się z 5 tabel:
Łącznie w całym zbiorze danych występuje 10952 obserwacji oraz 286 atrybutów.
Do dalszej analizy zbiór krajów branych pod uwagę zostanie ograniczony do krajów należących do Unii Europejskiej w latach 2013-2019. W tym okresie UE posiadała najwięcej państw członkowskich w swoich dziejach (28). Dodatkową zaletą tak dobranego okresu jest kompletność danych we wszystkich dostępnych tabelach oraz mniej wartości pustych. Wynika to m.in. z tego, że rejestrowanie części wskaźników rozpoczęto stosunkowo niedawno. Aby uniknąć zaburzenia wyników wszystkie atrybuty z tabeli World Development Indicators z kompletnością danych niższą niż 50% nie będę brane pod uwagę w dalszej analizie.
Poniżej zaprezentowano tabelę z uśrednionymi wartościami wzkaźników dla Unii Europejskiej.
Na podstawie analizy uzyskanych wartości korelacji następujące wybrano następujące wskaźniki, które mogą mieć realny związek zarówno z cenami złota, Bitcoina jak i indeksem S&P. Wymienione niżej korelacje stanowią uśrednioną wartość korelacji trzech ww. atrybutów:
Korelacje powyższych atrybutów zostaną ukazane na poniższych wykresach.
Do stworzenia modelu użyte zostaną atrybuty wybrane w powyższych punktach. Jakość predykcji będzie oceniana za pomocą trzech miar ocen:
| intercept | RMSE | Rsquared | MAE | RMSESD | RsquaredSD | MAESD |
|---|---|---|---|---|---|---|
| TRUE | 70.05427 | 0.19647 | 56.16367 | 5.474014 | 0.1559017 | 2.944025 |
Błąd średniokwadratowy predykcji dla modelu wyniósł 68.5776254.
| lambda | RMSE | Rsquared | MAE | RMSESD | RsquaredSD | MAESD |
|---|---|---|---|---|---|---|
| 0.4977024 | 68.73559 | 0.1744594 | 54.8546 | 6.910032 | 0.1252801 | 5.709085 |
Błąd średniokwadratowy predykcji dla modelu wyniósł 70.0349089.
| k | RMSE | Rsquared | MAE | RMSESD | RsquaredSD | MAESD |
|---|---|---|---|---|---|---|
| 29 | 68.83695 | 0.1818294 | 50.74933 | 5.20467 | 0.065673 | 6.482604 |
Błąd średniokwadratowy predykcji dla modelu wyniósł 69.9484429.
| shrinkage | interaction.depth | n.minobsinnode | n.trees | RMSE | Rsquared | MAE | RMSESD | RsquaredSD | MAESD |
|---|---|---|---|---|---|---|---|---|---|
| 0.1 | 1 | 10 | 50 | 70.8598 | 0.1631956 | 58.9347 | 9.298335 | 0.1699268 | 8.837266 |
Błąd średniokwadratowy predykcji dla modelu wyniósł 71.9365079.
| neurons | RMSE | Rsquared | MAE | RMSESD | RsquaredSD | MAESD |
|---|---|---|---|---|---|---|
| 3 | 69.10443 | 0.2013303 | 55.00056 | 3.923903 | 0.1515988 | 4.516147 |
Błąd średniokwadratowy predykcji dla modelu wyniósł 68.4879905.
Testowane modele są zbliżone pod względem takich miar jak błąd średniokwadratowy czy R^2. Minimalnie lepszy zdaje się być model Bayesian Regularized Neural Networks.
Analizując powyższe ważności atrybutów można szybko zauważyć, że najistotniejszym atrybutem jest inflacja. Podatek od dóbr i usług nie ma w ogóle wpływu na tworzenie modelu. Natomiast pozostałe atrybuty mają od 5 do 10 razy mniejszy wpływ na wynik regresji.